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摘 要 : [目的 /意义 ] 针 对 领域 学 术 文 献 , 基 于 题 录 信息 构建 按照 “研究 内 容 ” 与 “研究 方法 ”的 双 标 签 分 类 模型 ,为 学 术 文 
献 的 细 粒 度 分 类 提供 方法 借鉴 。[ 方法 “过程 ] 以 深度 学 习 中 卷 积 神经 网 络 为 基础 模型 ,将 题名 、 摘 要 、 关 键 词 、 刊 
名 、 作 者 、 机 构 等 题 录 信息 分 为 显 性 特征 和 隐 性 特征 ,通过 显 性 特征 提取 、 隐 性 特征 映射 等 步骤 ,形成 特征 词 数组 ， 
在 此 基础 上 生成 词 向 量 人 矩阵 ,经 过 卷 积 层 、 池 化 层 与 Softmax 层 处 理 ,完成 分 类 任务 。|[ 结果 /结论 ] 以 电子 商务 领 
域 文献 为 例 进 行 实验 验证 ,结果 显示 ,该 模型 按 “ 研 究 内 容 ” 与 “研究 方法 ” 双 标 签 分 类 的 宏 F 值 分 别 为 0.74、 


0. 81 ,不 仅 明显 优 于 传统 机 器 学 习 方法 ,也 比 仅 使 用 显 性 特征 的 深度 学 习 分 类 方法 高 。 
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深度 学 习 ” 卷 积 神经 网 络 


吏 隐 基础 工作 ,不 仅 能 提高 学 者 学 术 信息 检索 效率 ， 
还 可 以 帮助 科技 管理 ,文献 管理 平台 等 机 构 更 为 准确 
地 解析 领域 发 展 方向 ,制定 更 为 合理 的 政策 或 规则 , 进 


作 快速 发 展 ”。 但 近年 来 , 随 着 科研 领 
域 攀 不 断 细 化 以 及 学 术 文献 数量 快速 增长 ,基于 传统 
的 伙 献 题 录 信息 和 手工 或 简单 机 器 学 习 的 分 类 方法 暴 
露 再 分 类 过 粗 ,准确 性 降低 的 情况 。 传 统 文献 分 类 研 
究 够 以 一 级 学 科 或 二 级 学 科 等 大 类 别 分 类 或 主题 词 分 
类 为 主 ,但 是 对 学 者 而 言 ,他 们 更 需要 细 粒 度 分 类 。 这 
种 细 粒 度 分 类 通常 表现 在 两 方面 :一 是 对 学 科 方向 ( 领 
域 ) 进 一 步 划分 ,如 在 电子 商务 学 科 中 进一步 细 分 为 跨 
境 电 商 .农村 电 商 、 电 商 技 术 等 ;二 是 分 类 维度 不 仅 有 
“研究 内 容 ” ,还 要 有 “研究 方法 ”, 如 某 篇 文献 按照 研 
究 对 象 被 分 为 “ 跨 境 电 商 ”同时 按照 研究 方法 分 为 “ 实 
证 研究 ”, 即 对 每 篇 学 术 文献 进行 双 标 签 分 类 。 

另 一 方面 , 现 有 学 术 文献 分 类 的 数据 项 主要 来 自 
题名 .摘要 ,关键 词 等 显 性 题 录 信 息 , 然 而 ,期 刊 名 称 、 
作者 .研究 机 构 等 数据 项 与 研究 内 容 .研究 方法 之 间 昌 


然 不 存在 显 性 相关 性 ,但 同一 期 刊 \ 作 者 或 者 研究 机 构 
通常 更 聚焦 特定 研究 内 容 、 研 究 方法 ,可 能 存在 隐 性 关 
系 。 因 此 ,探索 这 种 隐 性 关系 ,并 以 此 提升 学 术 文献 分 
类 的 精度 ,成 为 本 研究 的 另 一 目标 。 
鉴于 此 ,本 文 以 深度 学 习 算 法 为 基础 , 则 在 探索 一 
种 基于 题 录 信息 的 领域 文献 细 粒 度 分 类 方法 。 题 录 信 
息 作 为 分 类 标签 的 特征 项 ,不 仪 包括 与 分 类 标签 直接 
相关 的 题名 摘要、 关键 词 ,还 包括 与 分 类 标签 没有 直 
接 关系 的 期 刊 名 称 、 作 者 以 及 研究 机 构 等 隐形 特征 。 


2 文献 综述 


现 有 学 术 文 献 分 类 人 研究 中 ,大 部 分 学 者 是 基于 题 
录 信 息 中 的 摘要 、 关 键 词 和 题名 来 进行 文献 分 类 的 : 武 
建 光 等 把 摘要 中 的 高 频 特 征 词 与 人 工 识别 的 重点 词 作 
为 中 心 词 生成 知识 元 ,并 将 文献 表征 为 若干 个 知识 元 ， 
通过 计算 知识 元 的 相似 度 进行 文献 分 类 ; H. Chu 和 
Q. Ke 运用 扎根 理论 方法 对 摘要 中 收集 到 的 技术 名 称 
进行 编码 , 以 达到 对 研究 方法 分 类 的 目的 ;V. 
Chakraborty 等 针对 会 计 学 术 文 献 ,将 关键 词 和 摘要 作 
为 原始 数据 ,构建 “文献 -术语 ”和 矩阵 以 表示 术语 在 文 
献 中 出 现 的 频率 中 ; 周 丽 红 和 刘 勘 基于 词性 提取 题名 
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和 摘要 中 的 特征 词 并 进行 筛选 ,然后 计算 特征 词 词 频 ， 
将 文献 表征 为 特征 向 量 的 形式 并 通过 关联 规则 进行 文 


量 中 引入 这 些 数 据 项 反而 会 导致 更 多 的 “噪声 ” ,降低 
分 类 精度 。 而 事实 上 ,每 种 期 刊 都 对 研究 领域 进行 界 


献 分 类 5 ; 李 慧 和 玄 洪 升 根据 专利 文献 的 标题 和 摘要 
数据 构建 “文档 - 主题 "矩阵 和 “主题 - FRETI" AE E 
来 挖掘 技术 创新 主题 中 。 除 此 之 外 ,也 有 一 部 分 学 者 
尝试 借助 外 部 资源 构建 特征 ,以 提升 分 类 效果 :李湘 东 
等 利用 知 网 .维基 百科 、 新 闻 页 面 等 外 部 特征 信息 以 提 
高 文献 分 类 的 精度 "-”; 苏 燕 等 以 医学 主题 词 表 (Medi- 
cal Subject Headings , MeSH ) 为 基础 ,得 选 干细胞 领域 主 
题词 作为 表征 文献 的 特征 向 量 "" ; 潘 东 华 等 选用 专利 分 
类 码 构建 技术 词典 ,将 文献 表征 为 基于 德 温 特 手工 代码 
(Derwent Manual Code ,DMC ) 形 式 的 向 量 , 构 建 “ 专 利 — 
手工 代码 ”矩阵 ,形成 专利 文献 的 技术 知识 图 谱 "。 

本 使 用 机 器 学 习 算 法 提升 文献 分 类 精度 是 目前 采用 
的 下 要 技术 路 线 , 常 用 的 机 器 学 习 算法 有 支持 向 量 机 
( Support Vector Machine, SVM ) , 朴素 贝 叶 斯 (Naive 
Bhiesian Model, NBM) „K - 邻近 模型 (K-Nearest Neigh- 
borzKNN) 等 ,这 些 算法 在 文本 分 类 领域 中 取得 了 较 好 
的 总 果 :S，Baker 等 采用 基于 支持 向 量 机 的 算法 ,对 大 
规 栈 的 医学 文献 进行 语义 分 类 ,得 到 了 较 高 的 准确 
HET LL. Jiang 等 采用 局 部 加 权 的 方式 对 相 素 贝 叶 斯 
算 沁 进行 改进 ,从 而 提高 了 分 类 性 能 "”; 白 小 明和 万 
Medis HET. KNN 与 SVM 算法 对 于 科技 文献 分 类 的 性 
能 2 。 近 年 来 , 随 着 深度 学 习 算法 的 日 益 成 熟 ,已 有 
api 表明 卷 积 神经 网 络 ( Convolutional Neural Net- 
walls, CNN) 可 以 自动 从 文本 中 学 习 特 征 ,减少 人 工 
对 特征 信息 的 干预 ,使 得 文本 分 类 的 效果 通常 优 于 传 
统 栅 器 学 习 算法 :BJ. Gutierrez 等 5 使 用 多 种 机 
器 学 习 算 法 对 领域 文献 进行 分 类 ,验证 了 深度 学 习 算 
法 性 能 优 于 传统 机 器 学 习 算法 ; 郭 利 敏 '" 基于 CNN 模 
型 对 《全 国 报刊 索引 》 的 170 万 条 文献 信息 进行 了 多 层 
次 分 类 ,取得 了 较 好 的 效果 。 

综 上 所 述 ,学 者 们 基于 摘要 .关键 词 和 题名 等 题 录 
信息 ,采用 机 器 学 习 算 法 对 学 术 文献 分 类 进行 了 深入 
研究 ,准确 率 不 断 提 高 。 题 录 信息 除了 摘要 .关键 词 和 
题名 之 外 ,还 包括 刊 名 作者、 机 构 等 ,然而 ,目前 对 此 
相关 内 容 的 研究 鲜 有 涉及 。 本 文 在 预 研 中 也 发 现 , 直 
接 将 刊 名 、 作 者、 机 构 等 数据 项 加 入 特征 向 量 中 ,无 论 
采用 传统 机 器 学 习 还 是 深度 学 习 算法 ,其 分 类 准确 率 
不 但 未 提高 ,反而 显著 下 降 。 分 析 其 原因 ,主要 是 从 摘 
要 ,关键 词 和 题名 中 可 以 提取 到 与 研究 内 容 和 研究 方 
法 相关 的 主题 词 ,而 刊 名 、 作 者 .机 构 中 几乎 没有 能 


定 , 且 “偏爱 " 某 些 研究 方法 ,每 位 作者 有 自己 的 研究 
领域 和 擅长 的 研究 方法 ,每 个 研究 机 构 或 研究 团队 也 
会 形成 特定 研究 领域 和 常用 的 研究 方法 。 本 文 推断 这 
些 数 据 项 中 存在 着 与 研究 内 容 和 研究 方法 有 关 的 隐 性 
寺 征 。 

因此 ,本 研究 将 题 录 信息 数据 项 划分 为 显 性 特征 
和 隐 性 特征 ,其 中 ,摘要 关键 词 和 题名 为 显 性 特征 , 刊 
名 、 作 者 及 机 构 为 隐 性 特征 。 对 于 显 性 特征 ,直接 提取 
和 村 征 词 ; 对 于 隐 性 特征 ,进行 特征 映射 ,将 其 显 性 化 。 
在 此 基础 上 构建 特征 词 数 组 ,并 使 用 Skip-Gram 构建 
词 向 量 模型 ,作为 深度 学 习 CNN 模型 的 输入 数据 。 在 
CNN 模型 的 输出 层 ,本 文 实现 了 同时 对 “研究 内 容 ” 和 
“研究 方法 ”的 双 标 签 分 类 。 最 后 ,本 文通 过 电子 商务 
主题 领域 文献 验证 方法 的 有 效 性 。 


3 ”模型 构建 


本 研究 预先 对 训练 集 和 测试 集中 的 学 术 文献 , 按 
照 “ 研 究 内 容 ” 和 “研究 方法 ”两 种 分 类 分 别 进 行人 工 
标注 ,作为 后 续 机 器 学 习 的 语 料 。 

领域 学 术 文 献 主题 分 类 的 基本 思路 是 :以 题 录 信 
息 作 为 分 类 依据 ,在 特征 提取 的 基础 上 构建 初始 特征 
和 矩阵 ,并 对 其 进行 词 向 量化 ,随后 通过 CNN 深度 学 习 
算法 实现 细 粒 度 分 类 , 即 按 * 研 究 内 容 " 和 ”研究 方法 ” 
的 双 标 签 分 类 。 学 术 文 献 的 题 录 信 息 一 般 包 括 题名 、 
作者 、 机 构 \ 刊 名 关键 词 以 及 摘要 等 ,如 表 1 所 示 : 

表 1 学 术 文献 题 录 信息 示例 


数据 项 内 容 示 例 
题名 论 电 商 平台 “二 选 一 "行为 的 法 律 规制 
作者 。 XXX 


机 构 XX 大 学 法 学 院 
刊 名 现代 法 学 
关键 词 数字 经 济 ;电子 商务 ;平台 "二 选 一 ";P2B 条 例 
摘要 与 传统 经 济 一 样 ,数字 经 济 背景 下 的 强制 性 “二 选 一 "行为 不 
是 “本 身 违法 ”" ,但 如 果 行 为 人 使 用 这 种 手段 ,严重 损害 竞争 对 
手 实现 最 低 规模 经 济 的 能 力 ,或 者 阻止 新 企业 进入 市 场 ,就 全 
在 很 大 程度 上 妨 得 市 场 竞争 。 考 虑 到 进入 市 场 存在 着 经 济 、 技 
R ,数据 等 各 种 障 得 ,特别 是 网 络 外 部 效应 ,我 国电 高 平台 已 经 
高 度 集中 。 为 了 维护 市 场 的 竞争 性 ,使 商户 和 消费 者 充分 感受 
电子 商务 的 好 处 和 便利 ,竞争 执法 机 关 应 当 保证 平台 商户 的 多 
归属 , 即 任何 平台 经 营 者 都 无 权 强 迫 商户 只 能 在 一 个 平台 上 交 
易 。 同 时 ,考虑 到 电子 商务 的 特点 和 中 小 商户 对 平台 中 介 的 依 
赖 性 ,我 国有 必要 制定 规范 中 介 平台 与 商户 之 间 交 易 关系 的 
门 法 ,并 完善 (电子 商务 法 ) 第 35 条 。 


本 文 提出 的 分 类 模型 主要 包括 3 个 部 分 :中 特征 


接 表征 文献 特征 信息 的 主题 词 ,不 加 处 理 的 在 特征 向 


词典 与 停 用 词典 的 构建 。 选 择 训练 集中 所 有 文献 的 题 
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t= 


名 PTRA E K E A HERE 16] 15] HI" (user. dict) 
与 “ 停 用 词 词 表 ”(stop_words list) ,以 提高 分 词 的 准确 
性 。 凶 特征 矩阵 构建 及 向 量化 。 将 题 录 信息 划分 为 显 
性 特征 (摘要 、 题 名 、 关 键 词 ) 和 隐 性 特征 (作者 、 刊 名 
和 机 构 )。 对 于 显 性 特征 进行 分 词 、 去 停 用 词 处 理 ;对 
于 隐 性 特征 ,采用 特征 映射 的 方式 ,将 隐 性 特征 显 性 


特征 词典 与 停 用 词典 的 构建 


特征 矩阵 构建 及 向 量化 


化 ,这 也 是 本 研究 的 核心 所 在 。 在 此 基础 之 上 构建 基 
于 题 录 信 息 的 特征 词 数组 并 进行 向 量化 处 理 ,作为 
CNN 分 类 模型 的 输入 数据 。@ 文 献 分 类 的 深度 学 习 。 
通过 CNN 模型 对 文献 进行 分 类 ,在 CNN 模型 的 输出 
层 , 设 计 了 “C( 研 究 内 容 ) x M( 研 究 方法 ) ”的 形式 ,用 
以 实现 文献 的 双 标 签 分 类 。 如 图 1 Brun: 


文献 分 类 的 深度 学 习 


[ss [snc poen [ n] TA maJ mi 7 

人 一 一 人 

i n 
$ prm Y 

ZEE] memes lg DERE i DON 池 化 层 | 
Y Y » pm 特征 提取 与 映射 i 

| 人 工 识别 || tenias | Softmax 层 | 

NT 
I - Fi EST T 初始 特征 矩阵 构建 i i 
[em [I^ 词典、 CA 人 Y 研究 内 容 || 研究 方法 | 
y= J 基于 word2vec 的 词 向 量化 一 一 一 标签 标签 
< 1 领域 学 术 文 献 主题 分 类 方法 框架 
319 停 用 词 与 特征 词 词典 的 构建 质量 较 差 的 特征 容易 出 现 过 拟 合 或 欠 拟 合 现象 。 本 研 


加 特征 词 词典 与 停 用 词 词典 的 构建 是 数据 预 处 理 的 
Cae AE pl 


uma. ee 
smt 种 基于 训练 集 所 有 文献 题名 .摘要 和 关键 词 
数据 项 的 特征 词 与 停 用 词 词典 构建 方法 ,具体 说 明 如 
Das 
5 特征 词 词典 主要 是 由 3 个 部 分 组 成 :首先 ,考虑 到 
息 中 关键 词 的 重要 性 ” ,将 其 全 部 纳入 特征 词 
PE, TE EAEAN A TY n 
入 特征 词 词 典 。 最 后 结合 领域 专家 的 知识 ,将 表征 领 
域 文献 主题 的 典型 词汇 纳入 特征 词 词典 。 

对 于 停 用 词 词典 ,本 研究 最 初 仅 采 用 哈工大 停 用 
词 词 库 "” ,但 效果 不 佳 。 经 分 析 发 现 ,导致 这 种 情况 
的 原因 主要 有 两 点 :一 是 学 术 文献 的 形式 化 描述 词汇 
较 多 ,如 “ 随 着 "“ 指 出 "“ 按 照 ”等 句 首 词 ,这 些 词汇 容 
易 “ 误 导 ” 机 器 学 习 。 二 是 分 类 特征 不 显著 的 低频 词 
(小 于 5) ,在 机 器 学 习 中 容易 出 现 过 拟 合 现象 。 基 于 
此 ,本 研究 的 停 用 词 词典 除 包含 哈工大 停 用 词 词 库 外 ， 
还 加 入 了 句 首 词 和 分 类 特征 不 显著 的 低频 词 。 

3.2 ”特征 矩阵 的 构建 及 向 量化 

在 文本 挖掘 领域 ,深度 学 习 模型 可 以 自动 从 分 布 
式 词 向 量 中 寻找 特征 ,相对 于 传统 机 器 学 习 算 法 如 条 
(OD ss ONUS TENE IE 


究 针 对 题 录 信 息 中 的 数据 项 ,将 其 划分 为 显 性 特征 和 
隐 性 特征 ,分 别 进行 处 理 。 
3.2.1 显 性 特征 提取 

首先 ,将 关键 词 直 接 加 入 到 关键 词 特征 集合 K 中 ; 
其 次 ,引入 特征 词 与 停 用 词 词典 ,使 用 分 词 工 具 对 题名 
和 摘要 进行 分 词 ,形成 题名 特征 集合 了 摘要 特征 集合 
So WAC) - 式 (3 ) 所 示 : 


K=(k ,hk,,.,k,) 式 (1) 

T= (t,t, tp) 式 (2) 

S= (Si 415,555.) 式 (3) 

其 中 , 表示 关键 词 中 的 第 + 个 词 ,, 表示 题名 中 
的 第 p 个 词 ,s, 表示 摘要 中 的 第 9 个 词 。 这 里 需要 特 


别 谨 明 的 是 :每 篇 文献 对 应 的 r.p\q 是 可 变 的 ,为 了 使 
后 续 词 向 量 的 长 度 固定 ,需要 设置 3 个 超 参数 RR( > 
r) PC2p).QCzq) ,用 于 固定 天 .TS 的 长 度 , 不 足 部 
分 用 “0” 占 位 ,具体 形式 见 式 (4) - 式 (6): 


R-r 


一 全 
K=(k,k,,,k,, 0,.…,0) 式 (4) 
P-p 
了 = (t,t; "7,1, 0,.…,0) 式 (5) 
9-4 
B8 putos us 0,7,0) 式 (6) 


3.2.2. 隐 性 特征 映射 

文 题 录 信 息 中 的 机 构 . 刊 名 .作者 与 文献 的 研究 内 
容 或 研究 方法 存在 隐 性 关联 。 以 电 商 领域 为 例 :计算 
机 学 院 发 表 的 学 术 论 文 可 能 聚焦 于 “信息 技术 的 电子 


。 但 是 初始 特征 的 质量 仍然 影响 深度 学 习 效 率 ， 


商务 应 用 ”, 而 法 学 院 发 表 的 论文 围绕 "电子 商务 法 律 
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法 规 " 展 开 ; 农 业 类 期 刊 则 可 能 刊 发 “农村 电 商 扶贫 
主题 的 学 术 论 文 ,国际 贸易 类 期 刊 可 能 选择 “ 跨 境 电 
商 ” 的 主题 进行 讨论 同 理 , 特 定 的 作者 通常 使 用 相对 固 
定 的 研究 方法 且 聚 焦 某 一 研究 领域 ,但 当 该 学 者 与 其 
他 学 者 合作 时 ,其 研究 内 容 或 研究 方法 又 可 能 改变 。 


名 ,作者 中 的 特征 信息 显 性 化 ,然后 加 入 到 初始 特 
阵 中 ,具体 映射 过 程 如 下 : 

(1) 作 者 特征 处 理 。 将 作者 与 领域 文献 进行 关 
联 ,根据 作者 与 发 表 文献 所 涉及 研究 内 容 、 研 究 方法 的 
共 现 频次 ,将 作者 这 个 隐 和 性 特征 进行 显 性 化 处 理 。 


TERR. 


因此 ,本 研究 采用 特征 映射 的 方式 将 隐 含 在 机 构 、 刊 | 2 展示 了 不 同类 型 作者 的 研究 方法 标签 生成 过 程 : 
研究 方法 
标签 数据 
pm ia mt 


| 作者 共 现 
DUE 


研究 方法 


esi JAPE 1 
值 计算 标签 


研究 方法 
类 别 统计 


2 人 ig 


2 作者 映射 流程 


记 - 恨 据 领域 文献 的 作者 合 著 关系 构建 作者 共 现 所 
阵 3 各 果 共 现 次 数 ( 即 合 著 频 次 ) 超过 特定 阔 值 , 则 认 
为 瑚 个 作者 在 某 一 领域 的 学 术 研究 中 存在 稳定 的 合作 
江 如 ,将 其 视 为 合作 作者 进行 特征 喘 射 ,否则 对 第 一 作 
关于 行 特征 映射 。 具 体 做 法 是 :首先 对 合作 作者 (或 第 
-< 作者 ) 按 照 研究 方法 类 别 进行 频数 统计 ,生成 “作者 
他 究 方法 "频数 分 布 表 。 然 后 ,计算 不 同 作者 采用 的 
BEND E BORSE AP, 计 算 公式 见 式 (7) JAP fii 
作者 对 某 一 研究 方法 的 偏好 越 强 ,最 后 ， 
成“ 作者 - 研究 方法 "概率 分 布 表 。 


= JAP, Cj) E 式 (7) 


S tc) 中 uM 表示 领域 文献 研究 方法 的 类 别 ,mi 表 
WIEK j 采用 第 i 个 研究 方法 的 频数 。 根 据 概率 分 布 
表 ( 交 作者 映射 为 研究 方法 显 | 性 特征 :首先 设置 JAP 转 
化 概率 阔 值 ,然后 选择 MP 值 最 大 并 且 满 足 阔 值 的 研 
究 内 容 标签 ,并 将 作者 映射 为 此 标签 。 阔 值 为 超 参数 ， 
假设 经 过 试验 ,将 冰 值 设置 为 0.7, 即 如 果 某 作者 的 
JAP 值 不 低 于 0.7 ,就 将 该 作者 映射 为 该 研究 方法 标 
签 ,否则 用 占 位 符 “0 "代替 。 表 2 显示 了 作者 映射 为 研 
究 方 法 标签 的 示例 ,“ 作 者 -1 映射 为 "研究 方法 - 


2”,“ 合 作 作者 -2” 映 射 为 “研究 方法 -1”,“ 作 者 -5” 
映射 为 “研究 方法 -3” ,而 “作者 -3”“ 合 作 作者 -4” 


用 占 位 符 “0" 代 替 。 
表 2 “作者 -研究 方法 ”概率 分 布 表 示例 
研究 方法 - 1 研究 方法 -2 研究 方法 -3 研究 方法 -4 


作者 -1 0 1 0 0 
合作 作者 -2 0.8 0.2 0 0 
作者 -3 0 0 0.5 0.5 
合作 作者 -4 0.6 0 0.4 0 
作者 -5 0 0 1 0 


(2) 期 刊 特征 处 理 。 与 作者 特征 处 理 类 似 , 将 刊 
名 与 领域 文献 关联 起 来 ,映射 为 研究 内 容 、 研 究 方法 显 
性 特征 。 以 研究 内 容 为 例 ,处 理 流程 如 图 3 所 示 : 


研究 内 容 

标签 数据 
| 研究 内 容 O gnar 
ERE 类 别 统计 M JCP 概 率 值 计算 | 究 内 容 标 


图 3 期 刊 映射 流程 


首先 ,以 刊 名 为 对 象 ,统计 每 种 期 刊 不 同 研究 内 容 
的 频数 ,生成 期刊 — 研究 内 容 " 频数 分 布 表 , 并 计算 
每 种 期 刊 * 研究 内 容 " 标签 的 概率 值 7CP, 计 算 公式 如 
式 (8) 所 示 。 同 样 ,JCP 的 值 越 大 ,表示 某 一 种 期 刊 对 
于 某 一 研究 内 容 的 俩 好 越 强 。 然 后 根据 JCP 生成 “期 
刊 -研究 内 容 " 概 率 分 布 表 。 


JCP;() = 


式 (8) 


式 (8) 中 ,c Pe ;表示 
期 刊 j 对 于 第 ii 个 研究 内 容 标 签 的 频数 。 根 据 概率 分 
布 表 , 将 刊 名 映射 为 研究 内 容 显 性 特征 :首先 设置 JCP 
转化 概率 阐 值 ,然后 将 刊 名 转化 为 大 于 等 于 阐 值 的 研 
究 内 容 标签 。 如 果 没 有 满足 条 件 的 标签 或 标签 数量 
不 足 , 则 用 占 位 符 “0 代替。 假设 经 过 试验 ,将 装 值 
设置 为 0.33 ,如 果 某 一 研究 内 容 JCP 值 不 低 于 0. 33, 
则 将 该 研究 内 容 标 签 加 入 到 刊 名 映射 集合 中 。 表 3 
显示 期 刊 名 称 映射 为 研究 内 容 标 签 的 实例 。“ 期 刊 
-1 的 映射 集合 为 1 研究 内 容 - 1 ,研究 内 容 -4,01， 
“期 刊 -3 ”的 映射 集合 为 1 研究 内 容 -3 ,研究 内 容 - 
4, 人 研究 内 容 - 51, BEI -5 ”的 映射 集合 为 10,0， 
01 。 
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表 3 “期 刊 -研究 内 容 ” 概 率 分 布 表 示例 首先 对 研究 机 构 进 行 如 下 处 理 : 中 若 文献 中 存在 
研究 内 容 -1 研究 内 容 -2 研究 内 容 -3 研究 内 容 -4 研究 内 容 -5 | 多 个 研究 机 构 , 仅 选取 第 一 研究 机 构 ;@) 通 过 正则 表达 
MR. " ? TM 3 XOETI — RWD S REDRA , 4 
Ne wr e i 到 一 级 研究 机 构 如 “XX 大 学 "基本 无 法 表明 领域 文献 
的 研究 内 容 ,因此 ,对 一 级 研究 机 构 进行 删除 仅 保留 二 
e a a a a 级 研究 机 构 , 如 经 济 与 管理 学 院 、 法 学 院 进行 特征 映 
射 。 之 后 ,计算 每 个 研究 机 构 中 出 现 的 “研究 内 容 "与 
3) 研究 机 构 特征 处 理 。 将 研究 机 构 与 领域 文献 “研究 方法 "标签 的 概率 值 , 并 采取 与 期 刊 映 射 相同 的 
关联 起 来 ,映射 为 研究 内 容 .研究 方法 显 性 特征 。 以 研 | 方法 进行 特征 映射 。 
究 内 容 为 例 , 其 处 理 流程 见 图 4。 


研究 内 容 
标签 数据 


ER 
pm íl 


E TAN Lop TRAE LL. ERDHE 研究 内 容 标 入 
标准 化 。 | “| 类 别 统计 


> 
e El4 ”研究 机 构 映射 流程 
T 
32S 词 向 量化 3.3 文献 分 类 的 深度 学 习 
将 处 理 后 的 显 性 特征 和 隐 性 特征 分 别 加 入 到 特征 与 传统 的 机 器 学 习 算法 相 比 , 深 度 学 习 模型 在 大 
WA D H, WRO) Bs. MERR RIE T BEEE. REA 
D=[K,T,S,A,J,0] 式 (9) | 习 模 型 通过 神经 元 的 连接 ,可 以 从 浅 层 的 初级 特征 开 


COR KT SAJO 分 别 表示 经 过 处 理 后 的 题名 、 | 始 学 习 到 深层 的 高 级 特征 。 对 于 本 研究 所 构建 的 词 向 


GA ARE edt . 刊 名 .机 构 数据 。 RUEPE D^ ,深度 学 习 模 型 CNN 既 可 以 学 习 到 全 局 特 


ON 然后 ,通过 Word2Vec 将 也 转化 为 词 向 量化 ,形成 | 征 ,又 可 以 学 习 到 不 同 题 录 信息 所 包含 的 细节 特征 。 
后 号 深度 学 习 模型 的 初始 化 特征 矩阵 。Word2Vec 是 CNN 模型 是 由 输入 层 、 卷 积 层 、 池 化 层 与 Softmax 


-5 种 浅 层 的 神经 网 络 模型 ,是 单词 在 多 维 数字 空间 的 层 组 成 ,并 利用 梯度 下 降 方 法 对 权重 参数 反 向 调 
映 岂 ,数字 空间 的 位 置 表 明了 单词 的 语义 信息 ” 。| 节 ,具体 结构 见 图 5。CNN 的 输入 层 为 词 向 量 和 矩阵 
Skip-Gram 是 Word2Vec 词 向 量 模型 的 一 种 方法 ,可 以 | D" , 卷 积 层 通过 若干 卷 积 核对 初始 特征 矩阵 进行 卷 积 
通过 中 心 词 预测 上 下 文 己 出 现 的 概率 ,使 用 预 训练 的 | 操作 ,形成 特征 图 。 之 后 ,对 特征 图 进行 池 化 操作 ,以 
词 向 量 会 使 CNN 模型 的 分 类 性 能 得 到 明显 提升 。 | 减少 维度 并 保留 最 大 的 特征 值 。 池 化 层 可 以 过 滤 掉 无 
借鉴 A. Timoshenko 等 ”对 Skip-gram 模型 的 参数 进行 特征 ,保留 重要 特征 。Softmax 层 通过 全 连接 的 方式 
设置 ,本 文 将 滑动 窗口 c 的 大 小 设置 为 5 , 词 向 量 维度 | 将 池 化 层 答 出 的 向 量 经 过 Softmax 函数 转换 为 文献 主 
d 设 置 为 20 ,将 数组 D 输入 到 词 向 量 模型 中 ,输出 为 词 | 题 的 概率 值 ,用 以 预测 文献 类 别 。 


HEERE D" eit”, HUEN CNN 模型 的 输入 。 


Cm 


输入 层 卷 积 层 也 化 层 Softmax 层 
1 Feature map 1 
/ 
5 mS 

T | i / Feature map j T. EN 

| | N| i i (  PQ-CxM) ) 
K | | H p i RE OO / 

i : 1 Feature map j+1 FE "x | 
A ! N | LL ! 
J i 1 Y i 
0 | H * Feature map k eet 


图 5 CNN 模型 结构 
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对 于 研究 主题 集合 J, 本 文 将 "研究 内 容 " 与 “研究 
方法 ”同时 作为 CNN 模型 的 输出 ,组 合 方式 如 式 (10) 
所 示 : 


J=CxM 式 (10) 

其 中 ,C 表示 研究 内 容 标 签 集合 ,WW 表示 研究 方法 
标签 集合 ,J 表示 研究 内 容 标签 与 研究 方法 标签 的 组 
合 , 从 而 实现 双 标 签 分 类 ,具体 过 程 见 图 6。 如 假设 某 
领域 文献 有 4 种 研究 方法 .8 类 研究 内 容 , 主题 标签 就 
需要 设置 32 个 ,分 别 为 主题 标签 1 .主题 标签 2 ,直到 
主题 标签 32。 若 某 篇 文献 标注 为 "主题 标签 32”, 说 明 
它 的 研究 内 容 、 研 究 方法 分 别 是 “研究 内 容 8 “研究 方 


法 4”。 
主题 标签 1 
EN d 
本 Ses / n 主题 标签 1 


内 容 标签 C S x 主题 标签 m 


^w 主题 标签 
A cm-Dl 
内 容 标签 AER CRM = 


主题 标签 


cxm 


主题 标签 m 


6 文献 双 标 签 分 类 实现 过 程 


202304.00544v1 


4 实验 验证 


为 验证 上 述 分 类 模型 的 可 行 性 与 有 效 性 ,本 研究 
对 中 国 知 网 (CNKI) 数据 库 中 的 “电子 商务 ”主题 文献 
进行 研究 内 容 与 研究 方法 分 类 ,并 与 支持 向 量 机 、 朴 素 
贝 叶 斯 等 传统 机 器 学 习 算法 进行 对 比 。 
4.1 数据 来 源 

本 研究 的 数据 来 自 CNKI 的 中 国 期 刊 全 文 数 据 
库 , 以 “电子 商务 ”为 检索 词 进行 主题 检索 ,期 刊 类 别 
限定 为 CSCD .EI 与 CSSCI, 检 索 时 间 范 围 为 1998 年 5 
H 15 H -2020 ^£ 6 H 10 日 ,共计 检索 到 8 874 条 记 
录 , 下 载 的 内 容 包 括 题名 、 人 研究 机 构 、 出 版 期 刊 .关键 
词 .摘要 等 信息 。 经 过 去 重 、 噪 声 处 理 与 缺失 值 处 理 ， 
最 终 确 定 了 7 647 篇 待 标注 文献 。 

在 7 647 篇 文献 中 , 共 包 含 13 977 个 关键 词 ,出 现 频 
次 最 高 的 特征 词 为 " 跨 境 电子 商务 ” ,共计 136 次 ; 共 包 含 
785 种 期 刊 ,其 中 单一 期 刊 出 现 的 最 高 频次 为 291 次 (中 
流通 经 济 ) ,560 种 期 刊 出 现 的 频次 在 2 次 以 上 ; 共 包 含 
6 785 个 研究 机 构 , 单 一 研究 机 构 最 高 发 表 频 次 为 82 次 
(武汉 大 学 信息 管理 学 院 ) ,1 899 个 研究 机 构 出 现 的 频次 
在 2 次 以 上 ; 共 包 含 10 568 位 作者 ,其 中 单一 作者 出 现 的 
最 高 频次 为 33 次 ,2 262 位 作者 出 现 的 频次 在 2 次 以 上 。 
高 频 主 题词 .期 刊 与 研究 机 构 的 分 布 情况 如 表 4 所 示 : 


2 X4 高 频 主 题词 期 刊 . 研 究 机 构 频数 分 布 情况 
主题 词 频次 期 刊 频次 研究 机 构 频次 
m 电子 商务 136 中 国 流通 经 济 291 武汉 大 学 信息 管理 学 院 82 
c 企业 管理 131 情报 杂志 290 吉林 大 学 管理 学 院 77 
Q 信息 化 109 情报 科学 233 华中 科技 大 学 管理 学 院 75 
推荐 系统 77 图 书 情报 工作 179 西安 交通 大 学 管理 学 院 68 
供应 链 73 科技 管理 研究 166 重庆 大 学 经 济 与 工商 管理 学 院 66 
信息 技术 72 计算 机 工程 133 西安 交通 大 学 经 济 与 金融 学 院 65 
网 络 营销 68 WINE 115 上 海 理工 大 学 管理 学 院 57 
协同 过 滤 68 商业 研究 115 北京 邮电 大 学 经 济 管理 学 院 52 
商业 模式 67 生产 力 研究 106 中 国人 民 大 学 商学 院 46 
物流 63 科技 进步 与 对 策 85 复旦 大 学 管理 学 院 44 


4.2 ATERSI 

通过 前 期 文献 调研 ,借鉴 肖 连 杰 和 章 成 志 等 
的 领域 文献 分 类 方法 ,并 与 多 名 电 商 学 者 反复 讨论 ,最 
终 确定 13 个 分 类 标签 ,分 为 “研究 内 容 ” 与 “人 研究 方 
法 ”两 个 大 类 ,覆盖 了 目前 电子 商务 研究 的 主要 研究 领 
域 ,如 表 5 所 示 : 


表 5 领域 文献 主题 标签 


分 类 主题 标签 数量 
研究 内 容 ”商业 模式 ;法 律 法 规 ;物流 配送 、 支 付 、 金 融 ; 市 场 营 销 ; 9 
电 商 技术 ;农村 电 商 ; 跨 境 电 商 ;信用 风险 ; 电 商 其 他 
研究 方法 理论 研究 ;实证 研究 ;案例 研究 ;技术 研究 4 
总 计 13 
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ER S 的 研究 内 容 主题 标签 中 ,“ 电 商 其 他 "表示 
电子 商务 比较 小 众 的 研究 领域 ,如 电 商 人 才 培 养 等 。 
在 研究 方法 上 ,本 研究 将 主要 采用 定性 研究 的 方式 分 
析 概 念 或 解读 政策 的 研究 归 类 为 “理论 研究 ”; 将 主要 
采用 计量 经 济 学 或 产业 经 济 学 方法 研究 或 检验 宏观 与 
中 观 层面 截面 或 时 间 序 列 数据 的 研究 归 类 为 “实证 研 
究 ”; 通 过 构建 模型 并 使 用 具体 数据 解析 具体 案例 ,一 
般 聚 焦 于 组 织 行为 的 研究 归 类 为 “案例 研究 ”; “技术 
研究 " 则 指 的 是 运用 计算 机 技术 对 电子 商务 相关 领域 
进行 研究 。 

考虑 到 领域 文献 的 专业 性 与 标 引 标准 的 统一 
性 ” ,本文 在 人 工 标 引 部 分 采用 人 数 较 少 的 领域 专家 
标 引 方法 ,而 非 业界 流行 的 众 包 模式 ” 。 众 包 模 式 下 
的 数据 标 引 工作 往往 由 众多 非 领 域 人 员 完成 ,虽然 提 
高 工 标 引 的 效率 ,但 是 不 适合 专业 性 较 高 的 学 术 文献 
标 怠 工作。 在 具体 操作 上 ,本文 主 要 是 基于 领域 专家 
的 帮助 ,为 每 一 个 研究 内 容 标签 确定 若干 特征 词 ( 见 表 
6 上 后 装 结 合 特征 词 的 出 现 位置 和 频数 进行 研究 内 容 标 
注 直 此 外 , 若 同一 篇 文献 出 现 两 种 以 上 的 研究 内 容 , 则 


究 内 容 标签 。 
表 6， 电 子 商务 领域 文献 研究 对 象 标 引 特征 
研究 内 容 标签 主要 特征 词 
商业 模式 B2B 模式 .B2C 模式 线 上 与 线 下 融合 等 
法 律 法 规 税法 电子 商务 法 .消费 者 权益 保护 法 等 
物流 配送 ,支付 金融 支付 系统 ,物流 配送 POP 等 

市 场 营销 在 线 评论 ,定价 研究 消费 者 偏好 等 
电 商 技术 推荐 算法 ` 云 计算 等 

农村 电 商 农产品 电 商 ` 电 商 扶贫 等 

跨 境 电 商 WTO ,贸易 便利 化 等 等 

害 用 分 险 信任 危机 、 可 信和 度 等 

电 商 其 他 其 他 电 商 领域 研究 问题 


表 7 列 出 了 5 篇 文献 标 引 的 例子 。 以 第 3 篇 为 
例 , 题 录 ,关键 词 和 摘要 中 均 出 现 了 与 “农村 电 商 ”和 
“物流 配送 ”相关 的 特征 词 ,但 是 “物流 配送 ”相关 特征 
词 出 现 了 5 次 ， 农 村 电 商 "相关 特征 词 出 现 了 3 次 , 因 
而 归 为 "物流 配送 支付、 金融 ”。 而 在 研究 方法 上 , 题 
录 和 关键 词 中 出 现 了 “改进 算法 ”字样 ,因此 研究 方法 
标签 确定 为 “方法 研究 ”。 


表 7 标 引 示例 


要 昌 竺 征 词 的 频率 进行 标注 ,选取 特征 词 频率 高 的 研 
N 


题 录 关键 词 


摘要 研究 对 象 标签 研究 方法 标签 


2 


公平 电子 商务 协议 《计算 机 应 用 研究 》， 测评 ,指标 


2010 
IK XX, XX 大 学 商学 院 , 共 生 抑或 迭代 :再 
议 跨 境 电子 商务 与 全 球 数字 贸易 《当代 经 
济 管理 》,2020 


易 ,数字 技术 


配送 策略 的 农村 电 商 集 送 货 一 体 化 车 辆 路 
径 问题 《系统 工程 》,2019 


EC-CDIO 电子 商务 张 XX, XX 大 学 管理 科 
学 与 工程 学 院 , 人才 培养 模式 的 构建 《高 
等 工程 教育 研究 》,2019 


5 /— XXX XX 大 学 ,上 海参 与 “两 带 一 路 "建设 
的 优势 .挑战 与 对 乡村 振兴 战略 背景 下 农村 
电 商 创业 的 典型 模式 研究 以 江苏 省 创 
业 实 践 为 例 ,《 农 业经 济 与 管理 ) ,2019 

为 确保 标 引 结果 的 准确 性 , 标 引 工作 分 别 由 3 位 
电子 商务 研究 方向 的 硕士 研究 生 按 照 上 述 标 引 规则 独 
立 完 成 。 如 果 两 位 及 以 上 工作 人 员 的 标 引 结果 一 致 ， 
则 确定 该 条 文献 的 标签 类 别 ; 如 果 3 位 工作 人 员 的 标 
引 结果 都 不 一 致 , 则 将 该 条 文献 交 由 领域 专家 处 理 。 
4.3 实验 分 析 
4.3.1 评价 标准 

领域 文献 主题 分 类 使 用 准确 率 P 值 .召回 率 尺 值 
以 及 值 进行 评估 。 本 文采 用 的 方法 是 将 需要 评估 


进 蚁 群 算法 


. chinaXiv 


培养 模式 


罗 XX ,XX 大 学 信息 学 院 ,一 种 新 型 的 匿名 ”电子 商务 ,信息 安全 ,素质 


跨 境 电子 商务 ,全球 数 字 贸 ”通过 梳理 数字 贸易 的 已 有 概念 界定 ,结合 


针对 电子 商务 中 客户 商家 和 第 三 方 的 信 — 电 商 技术 ”方法 研究 
任 问 题 设计 了 一 种 简单 有 效 的 匿名 公平 
电 


子 商 务 协议 ,…… 


理论 研究 


新 时 代 发 展 背 景 ,对 全 球 数字 贸易 …… 


盛 XX,XX 大 学 经 济 与 管理 学 院 ,基于 共同 ”共同 配送 ,农村 电 商 , 自 
货 一 体 化 车 辆 路 径 问题 , 改 。 域内 多 配送 中 心 .客户 居住 地 较 分 散 、 同 


乡村 振兴 ,农村 电 商 创业 模 
式 ,农村 电 商 创业 要 素 


E 


RE — 研究 农村 电 商 物流 配送 问题 ,综合 考虑 区 ”物流 配送 、 ”方法 研 


支付 ,金融 


时 具有 集 货 和 送 货 双 重 需 求 …… 


电子 商务 ,EC-CDIO, 人才 “基于 CDIO 人 才 培 养 模式 ,结合 电子 商务 ” 电 商 其 他 ”理论 研究 


实践 对 人 才 素养 的 综合 要 求 ,提出 并 实践 


农村 电 商 “案例 研究 


乡村 振兴 战略 是 新 时 代 中 国 特色 “三 农 ” 
发 展 战略 体系 的 重要 组 成 部 分 ,战略 的 实 
施 为 农村 电 商 创业 发 展 注入 新 动能 ,推动 
农村 电 商 创业 模式 不 断 创 新 …… 


的 类 标签 单独 视 为 正 类 ,其 他 类 别 视 为 负 类 ,构建 混 清 
和 矩阵 对 每 个 类 别 标签 进行 计算 。 被 正确 划分 某 一 类 别 
标签 的 样本 数 为 TP ,被 错误 划分 为 这 一 标签 的 样本 数 
AN FP ,被 正确 划分 到 其 他 类 别 标签 的 样本 数 为 TV ,被 
错误 划分 到 其 他 类 别 标签 的 样本 数 为 V, 则 POR 和 
F, 值 分 别 为 : 


TP 


P-TP.FP 


式 (10) 
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TP . 
R-TPEFN AD 
2xPxR x 
15 P+R 式 (12) 


4.3.2 对比 分析 
电子 商务 领域 文献 分 类 结果 见 表 8 . 表 9 . 表 10, 表 
8 给 出 了 本 方法 分 类 精度 , 表 9 为 基于 不 同 初始 特征 
构建 的 分 类 精度 , 表 10 显示 了 基于 其 他 机 器 学 习 模型 
的 分 类 精度 。 

通过 表 8 可 以 发 现 :在 电子 商务 领域 文献 的 分 类 
结果 中 ,对 于 研究 内 容 ,“ 农 村 电 商 "识别 的 准确 率 最 
高 ,达到 了 97% ,对 “商业 模式 ”的 分 类 准确 率 最 低 , 为 
48% ,“ 电 商 其 他 “物流 配送 .支付 .金融 "的 准确 率 也 
相对 较 低 ,其 他 标签 的 准确 率 都 在 70% 以 上 。 通 过 分 
析 发 现 ,分 类 结果 不 佳 的 研究 内 容 , 文 献 研究 的 范围 相 
对 续 广 ,如 标签 为 “ 电 商 其 他 "的 文献 ,研究 内 容 会 
及 > 晶 子 商务 人 才 培养 “旅游 电 商 "等 一 些 履 盖 率 较 
低 到 研究 内 容 。 研 究 内 容 的 不 一 致 性 导致 了 “商业 模 
式 * 三 “ 电 商 其 他 ”类 中 的 文献 特征 离散 化 程度 较 高 ， 
从 类 结 果 相对 较 差 。 对 于 研究 方法 , 除 “ 案 例 研究 "分 
关 洽 确 率 较 低 外 ,其 他 研究 方法 的 准确 率 都 在 85% 以 
虑 汾 类 结果 较 好 。 对 于 案例 研究 ,通过 统计 分 析 改 
珑 电 商 领域 中 使 用 案例 研究 方法 的 文献 比例 较 小 ,在 
Bi ct cr D i T. 36% , 较 少 数量 的 文献 可 能 
时 绽 模 型 对 “案例 研究 "方法 的 特征 提取 效果 较 差 ,出 
现 过 拟 合 现象 


== 研究 主题 性 能 指标 
Sei 标签 P R Fi 
研究 内 容 商业 模式 0.54 0.64 0.59 
法 律 法 规 0.84 0.84 0.84 
物流 配送 支付、 金融 0.58 0.74 0. 65 
市 场 营 销 0.74 0. 64 0. 69 
电 商 技术 0.76 0. 80 0. 78 
农村 电 商 0.98 0. 88 0.90 
跨 境 电 商 0.97 0.92 0.94 
信用 风险 0.79 0.60 0. 68 
电 商 其 他 0.61 0. 59 0. 60 
研究 方法 理论 研究 0.92 0.96 0.94 
实证 研究 0.89 0.85 0.87 
方法 研究 0.85 0.72 0. 78 
案例 研究 0.62 0.69 0.65 


为 检验 本 研究 所 构建 的 初始 化 特征 矩阵 有 用 性 ， 
本 文采 用 不 同 的 方法 进行 对 比 实验 ,实验 以 本 研究 所 
提出 的 研究 方法 为 基础 ,每 次 只 改变 一 个 特征 项 ,其 他 


表 9 不 同 数据 输入 与 预 处 理 的 电子 商务 领域 文献 


主题 分 类 对 比 结果 
性 能 指标 
输入 输 数 与 预 处 理 研究 内 容 研究 方法 
P R FQ, P R £F 

本 文 分 类 模型 0.72 0.73 0.74 0.88 0.80 0.81 

将 刊 名 \ 作 者 .机构 名 直接 加 入 0.63 0.62 0.62 0.75 0.70 0.72 
仅 题 名 摘要 数据 0.71 0.72 0.72 0.79 0.78 0.78 

仅 “ 哈 工大 ” 停 用 词 词典 ” 0.69 0.70 0.70 0.77 0.78 0.77 


表 10 不 同 模型 的 电子 商务 领域 文献 主题 分 类 结果 


性 能 指标 


模型 研究 内 容 研究 方法 
P R Fi P R Fi 


本 文 分 类 模型 0.72 0.73 0.74 0.88 0.80 0.81 


SVM 0.57 0.60 0.58 0. 69 0.41 0.51 
NBM 0.64 0.67 0. 65 0.70 0.67 0.68 
KNN 0.50 0.50 0.50 0. 69 0.45 0.54 


特征 项 不 变 。 结 果 见 表 9: 基 于 题 录 信息 的 文献 分 类 
模型 对 研究 内 容 分 类 的 准确 率 为 72% ,召回 率 为 
7396 , 宏 F, 值 为 74% ,对 研究 方法 分 类 的 准确 率 为 
88% ,召回 率 为 80% , 宏 F, 值 为 81% 。 将 作者 、 机 构 、 
刊 名 原始 数据 直接 加 入 到 特征 矩阵 中 ,研究 内 容 与 研 
究 方法 的 宏 值 分别 下 降 了 9% 和 11% 。 然 后 采用 
其 他 学 者 运用 的 CNN 文献 分 类 算法 仅 使 用 “题名 ”和 
“摘要 ”数据 进行 实验 ,研究 内 容 与 研究 方法 的 宏 
F, 值 与 本 文 的 研究 方法 2% 和 3%。 在 数据 预 处 理 过 
程 中 ,如 果 不 加 入 领域 特征 词典 ,并 仅 以 “哈工大 停 用 
词 " 来 对 原始 数据 分 词 ,研究 内 容 与 研究 方法 分 类 结果 
的 宏 值 都 相差 了 4% 。 这 直接 表明 ,本文 对 作者 .机 
构 和 刊 名 进行 特征 映射 构建 初始 特征 矩阵 对 于 提升 
模型 分 类 效果 有 一 定 的 帮助 。 

为 验证 CNN. 算法 对 领域 文献 细 粒 度 分 类 的 有 效 
性 ,在 进行 电子 商务 领域 文献 分 类 时 ,本文 将 常见 的 机 
器 学 习 算法 作为 对 比 实验 ,包括 经 典 的 支持 向 量 机 算 
法 .朴素 贝 叶 斯 算法 以 及 K -邻近 模型 算法 ””。 在 
实验 中 , 除 模 型 不 同 外 ,其 他 特征 项 均 相同 ,实验 结果 
见 表 10。 由 表 10 可 见 , 使 用 本 文 分 类 模型 (基于 CNN 
算法 ) 的 分 类 效果 最 佳 。 在 传统 机 器 学 习 算法 中 ,NBM 
算法 用 于 文献 主题 分 类 的 效果 表现 较 好 ,但 是 相对 于 
CNN 算法 差距 比较 明显 ,研究 内 容 分 类 结果 的 宏 F 值 
相差 9% ,研究 方法 相差 13% 。 

通过 表 9、 表 10 的 对 比分 析 可 以 看 出 ,本 研究 所 提 
出 的 方法 提高 了 文献 分 类 结果 的 宏 F, 值 ,这 说 明 对 于 
领域 文献 主题 细 粒 度 分 类 问题 ,本 研究 所 提出 的 方法 


135 


AELE EZ 


第 65 卷 第 14 期 2021 年 7 月 


ChinaXiv 合 作 期 刊 


| 


ex 


是 有 效 的 。 
8 


j 五 
H 


iÑ 


卫 


=] 


本 研究 构建 了 基于 题 录 信 息 的 细 粒 度 文献 分 类 模 
型 。 首 先 对 表征 文献 主题 的 题 录 信 息 进 行 租 选 ,并 基 
于 训练 集 所 有 文献 题名 、 关 键 词 和 摘要 构建 特征 词 与 
停 用 词 词典 ;然后 对 题 录 信 息 中 的 关键 词 .标题 摘要 
等 显 性 特征 进行 特征 提取 ,对 作者 、 刊 名 、 机 构 等 隐形 
特征 进行 特征 映射 ,构建 特征 数组 ;接着 对 特征 数组 进 
行 词 向 量 训练 ,并 以 此 作为 CNN 模型 的 输入 ;最 后 通 
过 CNN 模型 实现 领域 文献 “研究 内 容 ” 与 “人 研究 方法 ” 
的 双 标 签 分 类 。 实 验 结果 发 现 , 本 研究 提出 的 分 类 模 
型 不 仅 明 显 优 于 基于 传统 机 器 学 习 的 分 类 方法 ,也 比 
俩 使 用 题目 信息 中 显 性 特征 的 深度 学 习 分 类 方法 精度 


pres 
rr 


< 基于 题 录 信息 的 领域 文献 主题 分 类 同样 面临 一 些 
问题 .第 一 是 领域 文献 研究 主题 的 复杂 性 ,同一 文献 的 
研 窃 主题 可 能 包括 多 个 方面 ,本 文 仅 依据 出 现 频数 最 
高 的 特征 词 进 行 主题 标签 的 划分 ,这 就 容易 导致 分 类 
册 现 不 准确 的 情况 。 如 对 于 某 一 条 研究 农村 电 商 物流 
的 贡献 ,根据 特征 词 的 频数 我 们 标 引 的 主题 为 “物流 配 
浴 六 付 金融 ” ,但 是 模型 的 分 类 结果 为 农村 电 商 ,这 
表明 了 单 类 别 输 出 的 缺陷 。 在 后 续 研究 中 ,将 继续 对 
CANE 模型 的 输出 层 进行 改进 ,设计 多 类 别 的 输出 以 增 
5 信 献 主题 分 类 的 准确 性 。 第 二 是 文献 的 分 类 标签 依 


赖 氏 域 专家 ,存在 一 定 的 主观 局 限 性 ,后 续 拟 采用 机 器 


S 

学 可 算法 与 领域 专家 知识 相 结合 的 方式 来 获取 领域 广 

献 的 研究 主题 ,以 提高 模型 自动 化 分 类 的 能 力 。 第 三 

是 本 文 实验 所 使 用 的 数据 规模 比较 小 ,今后 将 开展 大 

规模 领域 文献 分 类 实验 ,进一步 验证 本 文 所 提出 方法 

的 有 效 性 。 
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E Abstract; | Purpose/significance | Targeting the academic literature in a specific field, a dual classification 


Cfiodel in "research content" and "research method" is constructed based on bibliographies, aiming to provide meth- 


reference for fine-grain classification of academic literature. | Method/process | Using the convolutional neural 


@igtwork in deep learning as the basic model, the title, abstract, keyword, source, author, organ and other bibliogra- 


m" m 
phies were divided into dominant feature and invisible feature. Through dominant feature extraction , invisible feature 


"mapping and other steps, a feature word array was formed. On this basis, the word vector matrix was constructed , 


$hich processed by the convolutional layer, pooling layer and Softmax layer to complete the classification task. | Re- 


u conclusion | Take the literature in the e-commerce field as an example for experimental verification. The results 


-Show that the macro F, values of this model are 0. 74 and 0. 81 respectively according to the two categories of “ re- 


search content" and "research method". The classification results are not only significantly better than traditional 


machine learning methods, but also higher than deep learning classification methods that only use dominant feature. 
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